home *** CD-ROM | disk | FTP | other *** search
/ Collection of Internet / Collection of Internet.iso / infosrvr / dev / www_talk.930 / 000305_connolly@pixel.convex.com _Wed Nov 11 00:26:23 1992.msg < prev    next >
Internet Message Format  |  1994-01-24  |  7KB

  1. Return-Path: <connolly@pixel.convex.com>
  2. Received: from dxmint.cern.ch by  nxoc01.cern.ch  (NeXT-1.0 (From Sendmail 5.52)/NeXT-2.0)
  3.     id AA18947; Wed, 11 Nov 92 00:26:23 MET
  4. Received: by dxmint.cern.ch (dxcern) (5.57/3.14)
  5.     id AA29092; Wed, 11 Nov 92 00:39:08 +0100
  6. Received: from pixel.convex.com by convex.convex.com (5.64/1.35)
  7.     id AA25723; Tue, 10 Nov 92 17:38:21 -0600
  8. Received: from localhost by pixel.convex.com (5.64/1.28)
  9.     id AA02403; Tue, 10 Nov 92 17:38:20 -0600
  10. Message-Id: <9211102338.AA02403@pixel.convex.com>
  11. To: Edward Vielmetti <emv@msen.com>
  12. Cc: www-talk@nxoc01.cern.ch
  13. Subject: Re: proposed registration of type 'text/html' for MIME 
  14. In-Reply-To: Your message of "Tue, 10 Nov 92 15:13:07 EST."
  15.              <m0mp1xh-00009MC@garnet.msen.com> 
  16. Date: Tue, 10 Nov 92 17:38:19 CST
  17. From: Dan Connolly <connolly@pixel.convex.com>
  18.  
  19.  
  20. >Here's the form for registering 'text/html' partly filled in, from RFC
  21. >1341.
  22.  
  23. I strongly suggest we bring the definition of HTML into conformance
  24. with the SGML standard before we register it with the IANA.
  25.  
  26. >Published specification:
  27. >    "The HTTP Protocol as Implemented in W3", avaiable for
  28. >    anonymous ftp from ftp://info.cern.ch/pub/doc/www/http.txt.  
  29. >    Describes the HTTP interactive access protocol and the tags used
  30. >    in HTML documents.
  31.  
  32. This is the HTTP document, not the HTML document:
  33.  
  34.      This document defines the Hypertext Transfer protocol (HTTP) as
  35.      currently implemented by the WorldWideWeb initaitive software.
  36.  
  37. The HTML document is: http://info.cern.ch/hypertext/WWW/MarkUp/MarkUp.html
  38. an old version of which is contained in http.txt.
  39.  
  40. In any case, both documents mention some relationship between HTML and
  41. SGML which is not formally defined:
  42.  
  43.    The hypertext mark-up language is an SGML format. This defines the
  44.    basic syntax used. The particular language, the set of tags and the
  45.    rules about their use, and their significance is not part of the
  46.    SGML standard. There being no standard on this, we have adopted a
  47.    set which seems sensible. We call them HTML -- hypertext markup
  48.    language. HTML is not an alternative to SGML, it is a particular
  49.    format within the SGML rules (an SGML "DTD").
  50.  
  51. The standard is very clear on this kind of thing. [I just got myself a
  52. copy, so I can quote it:]
  53.  
  54.     4.103 (document) type declaration: A markup declaration that
  55.     contains the formal specification of a document type
  56.     definition.
  57.  
  58.     4.104 document type delcaration subset: The element, entity,
  59.     and short reference sets occuring within the declaration
  60.     subset of a document type declaration.
  61.  
  62.     4.105 document (type) definition: Rules, determined by an
  63.     application, that apply SGML to the markup of documents of a
  64.     particular type. A document type definition includes a formal
  65.     specification, expressed in a document type declaration, of
  66.     the element types, element relationships, and attributes, and
  67.     references that can be represented by markup. It thereby
  68.     defines the vocabulary of the markup for which SGML defines
  69.     the syntax.
  70.  
  71. So it seems that the HTML DTD is missing the "formal specification."
  72. I have written a document type declaration subset that matches HTML as
  73. currently defined and implemented, with a few exceptions (most
  74. importantly, the PLAINTEXT tag). See
  75. http://info.cern.ch/hypertext/WWW/MarkUp/HTML.dtd
  76.  
  77. Most existing HTML documents need only small modifications to bring
  78. them into conformance (quote attribute values, add the <!DOCTYPE ...>
  79. prologue). And the existing WWW browser parses conforming documents
  80. just fine.
  81.  
  82.      Currently HTML documents are transmitted without the normal SGML framing
  83.      tags, but if these are included parsers will ignore them.
  84.  
  85. I don't know what "the normal SGML framing tags" are. An SGML document
  86. has three parts: the SGML declaration, the prologue, and the instance.
  87. It is common in SGML applications to use an implied SGML declaration
  88. and include the prologue by reference (kinda like an #include
  89. directive in C.) but without these "framing tags," it's just not an
  90. SGML document.
  91.  
  92. Besides, it's very little work to add the line:
  93.  
  94. <!DOCTYPE HTML SYSTEM>
  95.  
  96. at the beginning of HTML documents.
  97.  
  98. More non-conforming stuff in Markup.html:
  99.  
  100. Plaintext
  101.  
  102.    This tag indicates that all following text is to be taken litterally, up to
  103.    the end of the file.  Plain text is designed to be represented in the same
  104.    way as example XMP text, with fixed width character and significant line
  105.    breaks. Format:
  106.    
  107.  
  108.                 <PLAINTEXT>
  109.  
  110.    This tag allows the rest of a file to be read efficiently without parsing.
  111.    Its presence is an optimisation. There is no closing tag.
  112.  
  113. This should be moved outside the definition of HTML. It should just be
  114. part of the HTTP protocol: if the server starts the response with
  115. <PLAINTEXT>, what you're getting is plain text, not SGML.
  116.  
  117. Another problem:
  118.  
  119. Example sections
  120.  
  121.        The text may contain any ISO Latin printable characters, including the
  122.           tag opener, so long as it does not contain the closing tag in full.
  123.  
  124. This doesn't fit in SGML. The ETAGO delimiter ("</") ends a CDATA
  125. section.
  126.  
  127. A clarification:
  128.  
  129. Paragraph
  130.  
  131.    This tag indicates a new paragraph. The exact representation of this
  132.    (indentation,  leading, etc) is not defined here, and may be a function of
  133.    other tags, style sheets etc. The format is simply
  134.    
  135.  
  136.         <P>
  137.  
  138.    (In SGML terms, paragraph elements are transmitted in minimised form).
  139.  
  140. The implementation suggests that the <P> tag marks an empty element, a
  141. paragraph separator, rather than allowing minimization in the form of
  142. an omitted end tag, </P>.
  143.  
  144.  
  145.  
  146. We could even go so far as to call WWW an SGML application:
  147.  
  148.      4.279 SGML Application: Rules that apply SGML to a text
  149.      processing application. An SGML application includes a formal
  150.      specification of the markup constructs used in the
  151.      application, expressed in SGML. It can also include a
  152.      non-SGML definition of semantics, application conventions,
  153.      and/or processing.
  154.  
  155.      Note 2 The formal specification of an SGML application
  156.      constitutes the common portions of the documents processed by
  157.      th application. These common protions are frequently made
  158.      available as public text.
  159.  
  160. In other words, ftp://info.cern.ch/pub/doc/the_www_book.txt would
  161. serve as the "non-SGML definition." [by the way: I could only find
  162. postscript and LaTeX versions of the book: no txt file.] The "common
  163. portion" is html.dtd (we could obtain a public text identifier for
  164. it...).
  165.  
  166. If we want to do this (define an SGML application) section 15.5
  167. requires this statement to be plastered all over the place:
  168.  
  169.      An SGML Application Conforming to International Standard
  170.      ISO 8879 -- Standard Generalized Markup Language
  171.  
  172. If we're gonna use SGML, why not do it right?
  173.  
  174. Dan
  175.  
  176.  
  177.